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摘要 : [目的 /意义 ] 为 帮助 读者 从 热点 事件 产生 的 海量 微 博 报道 中 快速 了 解 事件 的 来 龙 去 脉 ,提高 微 博 事 
件 摘要 的 准确 性 和 可 读 性 ,提出 一 种 基于 事件 要 素 的 多 模型 微 博 热 点 事件 时 间 轴 摘要 提取 方法 。[ 方 法 /过 程 ] 
针对 微 博 文本 特征 ,结合 主题 模型 (LDA ) 与 互信 息 最 大 业 模 型 (MaRxEnt-MI) 的 特点 提取 事件 摘要 关键 词 , 以 
微 博 传 播 价值 和 主题 相关 性 为 标准 筛选 微 博 ,以 时 间 - 摘要 关键 词 - 摘要 微 博 的 形式 生成 时 间 轴 摘要 。 [ 结 
果 / 结 论 ] 利 用 人 工 标 注 的 测试 集 ,与 传统 的 TextRank 方法 进行 对 比 ,F 值 提高 8% -13% ,内 部 测试 表明 摘要 可 
读 性 提高 明显 。 实 验 文本 和 测试 集 的 数量 及 事件 丰富 度 需 要 进一步 扩展 ,应 考虑 更 多 的 加 权 策 略 模型 以 提高 
摘要 的 准确 性 。 实 验 结果 及 测试 反馈 表明 ,本 文 的 方法 能 很 好 满足 用 户 对 热点 事件 摘要 信息 需求 ,提高 微 博 摘 


要 提取 的 准确 率 。 
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随 着 互联 网 的 普及 和 微 博 的 流行 ,普通 网 民 、 网 络 
符 汽 、 新 闻 媒 体 以 及 政府 机 构 等 各 种 用 户 都 将 微 博 作 
为 获取 新 闻 信息 、 发 表 评 论 的 主要 途径 。 热 点 事件 发 
第 局 ,在 微 博 平 台 上 积累 了 海量 的 数据 。 然 而 由 于 发 
布 鬼 信息 口语 化 严重 文本 长 度 较 短 .语义 缺失 严重 、 
垃 援 文本 多 信息 增长 量 过 快 等 特点 ,读者 难以 快速 了 
解压 件 的 来 龙 去 脉 。 对 于 热点 事件 ,时 间 要 素 是 对 
件 描述 的 重要 一 环 ,在 重要 时 间 节 点 抽取 能 够 表示 热 
点 事件 发 展 情况 的 文本 ,可 使 用 户 通过 这 些 文本 能 快 
速 了 解 热点 事件 。 

国内 外 关于 自动 文档 摘要 以 及 新 闻 摘 要 等 技术 的 
研究 为 解决 上 述 问 题 提供 了 很 多 参考 。 自 动 文档 摘要 
技术 最 早 是 应 用 于 科技 论文 领域 ,是 由 于 科技 领域 论 
文 格式 严谨 、 用 语 规 范 .数据 的 结构 非常 完整 ,论文 本 
身 的 摘要 也 便于 实验 结果 的 验证 ' 。2000 年 后 ,学 界 
对 自动 摘要 更 加 关注 ,如 Document Understanding Con- 
ference (DUC) 等 的 学 术 会 议 推动 了 研究 的 深入 。 传 
统 的 文档 摘要 方法 按照 实现 的 技术 可 以 分 为 抽取 式 的 


三 机 


= 


山川 


摘要 和 生成 式 的 摘要 。 然 而 ,基于 语义 理解 的 方法 虽 
然 可 读 性 好 ,但 是 语义 语法 分 析 实 现 起 来 复杂 ,应 用 领 
域 的 可 移植 性 差 .对 文本 质量 要 求 很 高 。 对 于 微 博 这 
样 数据 稀疏 .表达 不 严谨 口语 化 严重 的 语 料 处 理 起 来 
效率 很 低 ,实现 难度 也 大 。 另 一 方面 ,基于 统计 文本 特 
征 抽取 句子 作为 摘要 的 方法 在 技术 上 虽然 容易 实现 、 
而 且 应 用 领域 广泛 ,但 是 大 多 数 研 究 忽略 了 时 间 的 相 
关 性 ,导致 摘要 不 简洁 、 内 容 不 全 面 、 表 达 不 连贯 。 总 
地 来 说 ,抽取 式 的 方法 比 生成 式 的 方法 更 适合 微 博 事 
件 的 摘要 生成 ”| 。 

近年 来 , 微 博文 本 自动 摘要 技术 逐渐 兴起 ,国外 相 
关 研 究 如 D. Inouye 提出 通过 组 合 的 TF -IDF 算法 对 名 
子 评分 .排序 去 除 宛 余 生成 多 条 微 博 摘要 ,以 及 先 通过 
微 博 聚 类 分 析 然后 抽取 每 个 类 别 重 要 的 微 博 作 为 摘 
要 的 方法 "。R. Swan 和 J Allan 通过 人 工 设计 事件 
表 , 针 对 每 个 时 间 节 点 抽取 命名 实体 ,并 以 时 间 阶 段 串 
联 起 来 作为 事件 年 表 '"。 国 内 研究 则 起 步 较 晚 ,R. 
Long 等 基于 关键 词 图 聚 类 的 方法 选择 微 博 热点 事件 
内 容 相关 的 n 条 微 博 作 为 摘要 ”。X. Wan 考虑 到 时 
间 因 素 在 文本 结构 中 的 影响 ,提出 结合 时 间 要 素 的 
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TimeTextrank 文本 摘要 算法 ”。 相 关 的 研究 大 多 数 以 


Twitter 作为 研究 对 象 ,而 且 很 少 考虑 时 间 因 素 的 重要 
性 加 。 新 闻 媒 体 摘要 研究 最 先 重视 时 间 要 素 ,但 是 
微 博 事件 摘要 中 相关 的 研究 较 少 。 

笔者 通过 分 析 微 博 上 热点 事件 以 及 相关 新 闻 报 
道 ,发 现 相关 新 闻 报道 中 事件 主体 .事件 中 的 时 间 、 地 
点 、 人 物 是 人 们 最 关注 的 事件 要 素 。 从 网 民 评论 和 关 
注 点 来 看 ,用 户 询问 的 最 多 是 事件 发 展 过 程 中 重要 时 
间 节 点 上 的 发 展 情况 。 从 相关 微 博 的 内 容 上 看 ,各 重 
要 时 间 段 内 微 博 中 的 事件 要 素 .实体 词 的 分 布 也 是 不 
断 变化 的 。 而 且 整 体 数据 稀疏 问题 比较 大 ,文本 数据 
量 大 口语 化 严重 .无 用 信息 多 。 

此 ,本 文 提出 基于 LDA( latent dirichlet alloca- 
tian 模型 提取 主题 关键 词 集 (” ,通过 最 大 信 互 信息 模 
型 解决 主题 模型 提取 关键 词 的 无 序 性 的 缺点 对 主题 关 
键 词 表 进 行 优化 ,融合 事件 要 素 和 微 博 影响 力 的 综合 


备 诗 方法 判断 重要 时 间 点 内 微 博 的 重要 性 ,从 而 得 出 
热 怠 事件 的 时 间 轴 摘 要 。 


人 热点 事件 时 间 轴 摘要 是 在 事件 几 个 重要 的 时 间 自 
玉昌 可 以 代表 该 节点 事件 发 展 情况 的 文本 集 ,这 些 
文案 可 以 较 全面 地 概括 该 时 间 节 点 网 络 上 针对 该 事件 
久生 报道 的 主要 内 容 。 时 间 轴 摘要 过 程 包括 重要 事件 
特征 抽取 ,时 间 摘要 关键 词 抽取 、 摘 要 句子 输出 3 个 主 
要 部 分 。 
加 本 文 首先 利用 LDA 模型 提取 微 博 语 料 的 热点 话 
题 以 及 话题 下 的 关键 词 ,然后 结合 事件 要 素 抽取 结果 、 
词性 ,在 话题 下 的 概率 、MaxEnt-MI 计算 词语 间 关 系 度 
等 要 素 ,计算 关键 词 权重 ,生成 摘要 关键 词 。 然 后 针对 
每 个 时 间 段 内 的 微 博 ,根据 前 面 生成 的 摘要 关键 词 结 
合 微 博 本 身 的 新 闻 价值 计算 权重 ,选取 权重 高 的 句子 
作为 摘要 生成 ,按照 时 间 - 摘要 关键 词 - 摘要 微 博 的 
摘要 形式 呈现 。 具 体 流程 见 图 1 。 


与 传统 的 文档 摘要 相 比 ,由 于 微 博 产品 的 特性 及 
微 博信 息 内 容 的 特征 ,出 现 了 一 些 和 传统 文档 摘要 以 
及 新 闻 事件 摘要 不 同 的 特点 ,根据 这 些 特性 生成 更 适 
应 微 博文 档 以 及 微 博 用 户 的 摘要 。 
2.2.1 热点 事件 相关 微 博信 息 内 容 的 特点 

(1) 微 博信 息 属于 短文 本 ,而 且 和 其 他 短文 本 相 
比 长 度 更 短 。 有 些微 博 从 句子 层面 看 口语 化 比较 严 


特征 抽取 组 合 模 型 
全 部 时 间 微 博 事件 主题 惊 过 LDA 建 模 
文档 一 各 预 处 理 a > 
事件 时 间 节 点 
最 大 炳 和 互 
事件 要 素 集合 信 各 于 人 
生 要 时 间 节点 
微 博文 档 集合 
人 
要 时 间 节点 = | 
微 博文 档 集合 
时 间 轴 摘要 
图 1 热点 事件 摘要 生成 流程 


重 、 规 范 性 差 , 但 是 词语 的 表达 能 力 较 强 ,而 且 一 条 微 
博 包 含 的 句子 一 般 不 会 超过 4 个 ,所 以 不 适合 对 单条 
微 博文 本 做 抽取 式 摘要 工作 。 

(2) 微 博信 息 往往 聚焦 于 事件 的 一 个 方面 。 微 博 
言 息 即时 性 强 .交互 性 强 , 而 且 由 于 文字 长 度 限 制 , 微 
博 内 容 往往 聚焦 于 事件 的 某 个 时 间 和 某 个 方面 的 问 
题 。 不 同 于 长 篇 的 新 闻 报 道 , 要 求 履 盖 事件 的 方 方 面 
面 。 所 以 ,通过 单条 微 博 难以 概括 事件 的 情况 。 

(3 ) 对 事件 情况 报道 质量 高 的 微 博文 本 中 事件 要 
素 比 较 完整 ,尤其 是 时 间 要 素 。 不 管 是 媒体 ,政府 机 构 
等 权威 账号 还 是 其 他 用 户 的 高 质量 微 博 ,由 于 字数 限 
制 和 传播 需求 ,往往 包含 完整 的 事件 要 素 ,突出 时 间 短 
语 。 并 且 事件 要 素 完 整 ,时 间 短 语 突出 也 能 提高 微 博 
摘要 的 可 读 性 。 
2.2.2 微 博 热点 事件 摘要 定义 ”目前 对 于 微 博 事件 
摘要 的 研究 比较 少 , 仅 看 到 B. Sharifi、M. A. Hutton 和 
J. Kalita 参考 Twitter 中 的 WhatTheTrend 系统 的 热点 事 
件 摘要 功能 ,将 微 博 事件 摘要 定义 为 在 某 事件 的 所 有 
微 博 集合 中 抽取 与 某 事件 最 紧密 相关 的 微 博 ” 。 与 
该 研究 面 对 的 情况 一 样 , 微 博文 本 太 短 ,所 以 本 文 不 做 
单条 微 博 的 摘要 抽取 ,选取 整 条 微 博 作为 摘要 的 一 部 
分 。 然 而 ,B. Sharifi 等 研究 没有 考虑 到 热点 事件 中 单 
条 微 博 难以 概括 事件 的 特点 ,所 以 本 文选 取 多 条 微 博 
的 集合 作为 摘要 文本 ,同时 按时 间 段 划分 微 博 集合 。 
因此 ,本文 将 微 博 热点 事件 的 摘要 定义 为 在 某 时 间 段 
内 所 有 微 博 中 选取 最 能 概括 该 事件 情况 的 微 博 集合 。 
2.2.3 微 博 用 户 参 与 热点 事件 的 行为 特点 

(1) 微 博 对 事件 报道 的 质量 和 发 布 者 身份 相关 。 
事件 的 新 闻 报 道 都 是 由 记者 撰写 .新 闻 机 构 发 布 。 新 
闻 质 量 虽然 与 发 布 者 水 平 相 关 , 但 是 对 事件 情况 的 报 
道 质量 差距 不 大 。 然 而 微 博 由 于 没有 审核 过 程 ,内 容 
质量 参 次 不 齐 。 但 是 ,由 于 微 博 用 户 拥 有 粉丝 ,或 者 本 
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身 是 政府 机 构 媒体、 集团 、 网 站 、 名 人 的 社交 账号 ,发 
布 信息 时 需要 承担 社会 责任 或 者 满足 粉丝 期 望 ,他 们 
发 布 的 微 博 质量 很 高 ,对 事件 某 个 方面 的 描述 十 分 准 
确 , 是 作为 摘要 的 理想 微 博 ;同时 有 些 事件 的 亲历 者 或 
见证 人 由 于 其 微 博 的 信息 及 时 ,质量 高 引起 大 量 转发 ， 
也 是 选 做 摘要 的 理想 微 博 。 

(2) 网 民 查 看 微 博信 息 、 参 与 微 博 事件 讨论 的 频 
率 按 天 呈 周 期 性 。 根 据 《2015 年 中 国 社交 应 用 用 户 行 
为 研究 报告 》5 显示 ,47. 5% 的 用 户 每 天 会 看 微 博 。 
用 户 对 自己 关注 的 热点 事件 一 般 会 关注 当天 有 哪些 信 
息 , 昨 天 有 哪些 信息 ,因此 ,可 以 考虑 按照 每 天 组 织 微 
博 摘要 集 ,符合 用 户 的 使 用 习惯 。 

(3) 网 民 对 微 博 事 件 相关 报道 关注 点 不 局 限于 一 
个 璇 面 , 且 在 事件 发 展 的 时 间 内 持续 关注 。 新 闻 对 事 


妓 会 跟 进 关注 救援 情况 ,伤亡 人 数 数据 更 新 等 。 在 浏 
交锋 博时 会 搜集 各 方面 情况 ,由 于 微 博 数据 量 大 ,用 户 
的 箭 息 需求 往往 难以 满足 。 
@ 综 上 所 述 ,针对 指定 热点 事件 所 有 相关 微 博 ,按照 
每 天 划分 为 多 个 微 博 集合 ,再 结合 本 文 提出 的 复合 模 
型 手 取 的 摘要 关键 词 将 每 天 的 微 博 集合 中 新 闻 价值 高 
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公式 (1) 中 :B 表示 主题 ,9 表示 主题 的 概率 ,z 表 
示 特 定 文档 或 词语 的 主题 ,w 为 词语 。B, 为 全 体 主题 
集合 ,其 中 Bx 是 第 k 个 主题 的 词 的 分 布 ( 见 图 2)。 第 
d 个 文档 中 该 主题 所 占 的 比例 为 9, ,其 中 0,,k 表示 第 
k 个 主题 在 第 d 个 文档 中 的 比例 ( 见 图 2)。 第 d 个 文 
档 的 主题 全 体 为 Z, ,其 中 zx 是 第 d 个 文档 中 第 n 个 词 
的 主题 ( 见 图 2 灰色 圆圈 ) 。 第 d 个 文档 中 所 有 词 记 为 
2 其 中 ww 是 第 4 个 文档 中 第 n 个 词 ,每 个 词 都 是 固 
定 的 词汇 表 中 的 元 素 。p(B) 表示 从 主题 集合 中 选取 
了 一 个 特定 主题 ,p( 6, ) 表 示 该 主题 在 特定 文档 中 的 概 
率 ,p(z,10, 是 该 主题 确定 时 该 文档 第 n 个 词 的 主题 ， 
p(wy 1Bi, zs 是 该 文档 第 n 个 词 的 主题 与 该 词 的 联 
合 分 布 。 连 乘 计算 随机 变量 的 依赖 性 。 

后 验 分 布 的 计算 见 公式 (2): 
p(Bix, 1p, Zi.p, Wi,p) 

p(wi.p) 


p(Bix, Op， zi.p lwi,p) = 
公式 (2) 

在 实际 操作 中 ,对 于 分 子 ,给 定 的 语 料 下 很 容易 统 

计 出 来 。 分 母 计算 量 随 着 文本 量 的 增 大 无 法 直接 计 


的 涯 博 第 选 出 来 ,形成 摘要 微 博 集 ,由 于 时 间 要 素 是 每 
条 绒 博 中 的 重要 组 成 成 分 ,对 每 个 摘要 集中 的 每 条 和 
博 s 提 取 时 间 要 素 并 利用 本 文 提出 的 算法 进行 标准 化 ， 
然 国 对 摘要 集中 包含 时 间 表 达 的 微 博 ,按照 其 提取 的 
时 间 表达 排序 输出 ,对 摘要 集中 不 包含 时 间 表达 的 置 
于 最 后 。 
2.3 LDA 模型 介绍 

LDA 模型 基本 原理 是 一 个 三 层 的 贝 叶 斯 模型 ,能 
够 对 文本 中 隐 含 的 主题 建 模 ,与 传统 相似 度 计算 等 广 
法 对 比 ,LDA 可 以 无 监督 地 从 海量 文本 数据 中 自动 生 
成 语义 主题 。LDA 模型 认为 文档 是 主题 的 混合 ,将 高 
维度 的 文本 语 料 集合 映射 到 低 维度 的 潜在 语义 空间 ， 
认为 主题 是 词 空间 上 的 分 布 ,从 而 获得 文本 间 的 关系 ， 
描述 的 是 一 篇 文档 的 产生 过 程 。 模 型 表示 见 图 2。 

在 LDA 的 生成 过 程 中 ,对 应 的 观测 及 隐藏 变量 的 
联合 分 布 计算 如 公式 (1) : 
p(Bixs bo ao wip) = 1p(B) fp(0,) 


公式 (1) 


(I pz 10 )p(w,, 1B, » Zan )) 
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算 ,如 语 料 的 综合 词 库 超过 百 万 ,含有 mn 个 词语 ,每 个 
词语 计算 m 种 观测 组 合 ,然后 要 累加 得 到 先 验 概 率 ， 
计算 十 分 巨大 。 因 此 需要 一 种 近似 的 求解 方法 。 

常见 的 后 验 分 布 方法 有 Expectation propagation , 拉 
普 拉 斯 近似 以 及 吉 布 斯 抽样 等 方法 。 本 文采 用 的 是 吉 
布 斯 抽样 方法 来 估计 当前 特征 词 和 主题 的 后 验 分 布 。 
吉 布 斯 抽样 算法 的 流程 是 :第 一 步 对 语 料 中 所 有 单词 
采样 获取 初始 主题 ,第 二 步 每 当 新 观察 到 词语 ,计算 当 
前 主题 ,然后 不 断 重 复 第 二 步 直 到 所 有 主题 的 分 布 达 
到 收敛。 

最 终 获 得 到 文档 中 多 个 主题 下 各 特征 词 的 概 
率 ”。 
LDA 模型 在 摘要 抽取 上 也 有 很 多 成 功 的 应 用 。 
R. Arora 和 B. Ravindran 利用 LDA 模型 计算 每 个 主题 
下 单词 权重 ,以 此 获取 每 个 句子 的 词语 权重 向 量 , 使 用 
奇异 值 分 解 算法 获取 最 能 表示 主题 含义 的 句子 作为 文 
档 摘要 ,LDA 和 SVD 的 混合 模型 很 好 地 降低 了 摘要 中 
的 重复 元 余部 分 。Y. Petinot K. Mckeown 和 开 . 
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AThadani 提出 hbLLDA 模型 ,建立 每 个 标签 与 主题 的 对 
应 关系 ,然后 通过 类 别 分 层 提取 摘要 。 

抽取 式 的 摘要 生成 主要 是 从 语 料 中 抽取 可 以 概括 
语 料 核 心 内 容 的 总 结 性 的 句子 ,包括 单 文 档 处 理 和 多 


其 中 ,P(X) 表 示 词 X 出 现 的 概率 ,P(X,Y) 表 示 词 
X 和 词 Y 在 所 有 二 阶 词 串 中 出 现 的 概率 ,如 “台湾 一 地 
震 " 语 料 中 出 现 314 次 ,所 有 的 二 阶 词 串 一 共有 2 000 
个 ,那么 P(X,Y) =314/2000。 根据 定义 ,互信 息 越 高 


文档 处 理 的 摘要 抽取 。LDA 模型 可 以 建立 多 文档 之 间 
的 语义 联系 ,在 应 对 语 料 信息 稀 琉 ,剥离 郊 余 成 分, 提 
高 摘要 抽取 的 准确 性 上 效果 十 分 明显 。 
2.4 MaxEnt-MI 模型 

在 抽取 微 博 摘要 关键 词 的 工作 中 ,一 般 从 词语 间 
内 部 的 紧密 性 和 外 部 边界 性 来 考察 关键 词 之 间 的 关 
系 。 内 部 紧密 程度 越 高 ,说 明 该 词组 的 完整 性 越 好 , 即 
该 词组 内 部 词 串 联系 紧密 。 外 部 边界 可 以 衡量 该 词组 
表达 整体 的 独立 性 ,指数 越 高 ,该 多 字 词 表达 的 语义 功 
能 越 强 。 如 "发 生地 震 ”“ 危 机 公关 "。 常 见 的 内 部 广 
流 :t-score( 在 整体 标准 差 不 明 的 情况 下 ,通过 样本 
标 闪 差 来 估 测 置信 区 间 的 分布 的 坐标 值 ) ,互信 息 、 
对 斑 可 能 性 值 等 方法 。 常 见 的 外 部 方法 有 :左右 录 的 


类 允 度 量 选择 最 大 炳 模型 ,组 合 两 个 模型 提出 衡量 关 
键 语 间 联系 的 的 MaxEnt -MI 模型 ,用 于 衡量 关键 词 之 
间 吏 系 程度 ,该 联系 程度 (定义 为 MEMI) 越 高 说 明 词 
请 济 义 功能 强 而 且 词 组 完整 性 高 。 利 用 该 模型 处 理 语 
料 稳 流程 如 图 3 所 示 


r= 
©O 二 
司 频 、 二 阶 共 现 、 a 
CE 
根据 公式 计算 
MIC, Y) 一 一 | 互信 息 提 取 
人 
计算 左右 信息 坑 
vy 
综合 排序 结果 
图 3 MaxEnt-MI 模型 处 理 流程 
2.4.1 词语 互信 息 计算 互信 息 体现 的 是 两 个 词 之 


间 相 互 依赖 程度 “ 。 根 据 孙 茂松 和 罗 盛 芬 等 学 者 在 
中 文 抽 词 任务 中 各 种 统计 量 的 效果 研究 显示 ,互信 息 
的 抽 词 效果 最 好 ,而 且 多 种 方法 之 间 的 互补 性 强 , 在 此 
研究 基础 上 ,选择 使 用 互信 息 的 统计 量 来 判断 词 串 之 
间 的 内 部 组 合 的 相关 程度 。 计 算 方 法 见 公式 (3): 


P(X,Y) s 
COPO7 


MI(X,Y) = log, 5 


意味 着 两 个 词 的 内 在 结合 的 紧密 程度 越 高 ,反之 ,两 个 
词 之 间 可 能 存在 短语 边界 。 
2.4.2 ”左右 信息 粹 计算 ”一般 来 说 , 炉 是 用 来 衡量 随 
机 变量 的 不 确定 性 '” 。 即 假设 随机 变量 X 可 以 取 有 
限 个 随机 变量 , 且 X 取 这 些 变量 的 值 都 可 以 计算 ,其 概 
率 表示 为 P(Xi) ,那么 X 的 炉 可 以 定义 为 H(X) ,计算 
公式 如 下 : 

H(X) = -> (x,eX)P(x,) .log,P(x,) 公式 (4) 

本 文 引用 信息 炉 的 定义 来 衡量 多 字 词 表达 短语 中 
左右 边界 的 炉 , 以 此 来 度量 多 字 词 短语 的 外 部 边界 性 。 
公式 如 下 : 

F,(W)= ->p(aWIW) .log,P(aWIW) 

Fa(W)= -Ep WIW) :logP( WolW) 

公式 (5) 

其 中 ,Fi(W) 和 Fs(W) 表示 目标 词 串 组 合 的 左 焕 
和 右 焙 ,W 表示 所 有 词 串 ,A 表示 目标 词 串 左 边 出 现 过 
的 词 的 集合 ,a 表示 其 中 的 某 个 词 。B 表示 目标 词 串 右 
边 出 现 过 的 词 的 集合 ,b 表示 其 中 的 某 个 词语 。P(aW 
1W) 表示 词 a 出 现在 目标 词 串 左边 的 概率 。P( Wb| 
W) 表示 词 b 出 现在 目标 词 串 右边 的 概率 。 
2.4.3 计算 词语 间 联 系 程度 ”笔者 将 两 个 关键 词 能 
够 组 成 语义 功能 性 强度 且 内 在 联系 程度 高 的 短语 的 概 
率 (MEMI) 定 义 为 以 上 3 个 统计 量 加 权 和 ,公式 如 下 : 

S(W)=a: MI(W) +B:F,ty: Fr 公式 (6) 

这 一 部 分 主要 是 根据 已 经 获取 的 互信 息 值 . 左 右 
言 息 炉 对 关键 词组 进行 排序 ,权重 的 选择 上 主要 是 根 
据 测 试 语 料 计 算 结 果 、 人 工 评估 效果 ,然后 微调 权重 获 
取 预 估 值 ,经 过 反复 调试 ,参数 a 取 1,B 取 0.5,Yy 取 
0.6 时 效果 较 好 。 经 过 测试 ,按照 MEMI 值 排列 得 到 的 
结果 显示 ,每 个 词语 只 和 某 些 词语 有 较 强 的 联系 ,这 些 
词 往往 是 这 个 词语 的 固定 搭配 、 动 宾 搭 配 、 修 饰 关系 
等 ,语义 功能 性 强 。 
2.5 ”LDA 模型 和 MaxEnt - MI 模型 的 组 合 和 改进 

LDA 模型 在 处 理 微 博 语 料 时 ,可 以 很 好 地 解决 文 
本 稀 玖 性 的 问题 ,而 且 无 监督 的 方法 使 得 在 处 理 微 博 
热点 事件 的 时 候 ,对 领域 知识 的 依赖 少 , 但 是 LDA 模 
型 存在 着 以 下 几 个 问题 ,需要 通过 模型 改进 或 者 模型 
的 组 合 来 解决 。 
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(1)LDA 模型 在 处 理 语 料 的 时 候 最 基本 假设 
是 ,主题 和 文档 中 的 词 的 顺序 是 无 关 的 , 即 词 项 之 
间 是 可 以 交换 的 ,因此 ,通过 LDA 提取 的 主题 下 关 
键 词 是 一 个 无 序 的 组 合 。 然 而 关键 词 的 次 序 对 于 
事件 非常 重要 ,而 且 词语 的 前 后 顺序 也 影响 了 摘要 
的 可 读 性 。 

(2)LDA 得 出 的 是 主题 下 各 个 词语 可 能 属于 该 主 
题 的 概率 ,并 没有 涉及 到 该 主题 下 词语 的 重要 性 。 

(3)LDA 模型 话题 分 布 向 高 频 词 倾斜 ,导致 很 多 
能 够 代表 话题 的 词语 被 高 频 词 淹没 ,降低 了 模型 的 话 

(4)LDA 模型 需要 设 定 主题 的 数量 ,主题 数量 设 

置 不 同 ,提取 效果 也 不 同 "1。 
本 MaxEnt-MI 处 理 微 博 语 料 的 时 间 复杂 度 低 ,效率 
毅 $ 在 微 博 稀 琉 语 料 的 条 件 下 也 很 好 地 揭示 了 词语 之 
羔 泣 联系 ,如 前 后 顺序 、 国 定 搭配 . 动 宾 搭 配 ,修饰 关 系 
等 具有 语义 功能 性 强 、 便 于 理解 的 效果 。 该 模型 只 

司 语 之 间 的 特征 ,没有 考虑 词语 与 微 博 见 的 特征 ， 
全 性 辣 语 位 置 的 关系 以 及 语 料 中 低频 词 的 功能 被 放 
娘 时 致 语 料 中 表现 能 力 较 差 的 词语 也 被 选 作文 本 表 
a 
但 是 MaxEnt -MI 和 LDA 模型 在 某 些 方面 很 适合 
微 情 短文 本 摘要 处 理 ,并 且 两 者 有 很 好 的 互补 性 。 
Mazjnt-MI 解决 了 LDA 模型 词语 的 顺序 问题 以 及 提高 
了 能 键 词 的 可 读 性 ;LDA 对 语 料 进行 主题 提取 后 ,生成 
的 美 键 词 聚 类 方便 MaxEnt-MI 进一步 处 理 , 在 LDA 模 
型 获取 的 话题 -关键 词 后 , MaxEnt-MI 模型 根据 关键 
词 前 词性 \ 权 重 等 特征 可 以 完成 短语 识别 ,结合 事件 要 
素 等 信息 完成 事件 关键 词 筛选 等 工作 ,获取 时 间 的 摘 
要 的 关键 词 识别 。 

除了 通过 组 合 模型 的 方法 之 外 ,本 文 为 了 提高 模 
型 精度 进行 了 一 系列 辅助 性 操作 :GD 通过 对 所 有 语 料 
进行 分 词 与 词性 标注 提取 指定 的 实 词 列 表 , 命 名 实体 
识别 方法 识别 相关 人 名 、 地 名 、 机 构 名 要 素 ,基于 Tex- 
tRank 方法 提取 微 博 关键 词 ,将 以 上 3 个 词 表 去 重 综合 
形成 本 文 的 事件 主题 词 表 ,根据 词 表 过 滤 掉 语义 功能 
性 比较 差 的 词语 ( 如 停 用 词 、 连 词 等 ) ,这 样 可 以 提高 
表意 性 比较 强 的 词语 在 LDA 采用 中 的 占 比 ,从 而 获取 
更 好 的 结果 。@@ 通 过 识别 事件 重要 时 间 节 点 数 确定 


虐 


3 ”实验 过 程 
3.1 预 处 理 

预 处 理 主要 是 对 采集 的 微 博 热点 事件 相关 的 微 博 
进行 分 词 .去除 停 用 词 去除 微 博 特 殊 符 号 (表情 符号 、 
话题 符号 .URL、@ 昵称 的 转发 回复 ) 命名 实体 识别 以 
及 词性 标注 等 。 本 文采 用 开源 ICTCLAS 分 词 系 统 完 
成 分 词 词性 标注 命名 实体 识别 ,该 系统 支持 用 户 自 
定义 词典 ,分 词 速度 快 ,准确 率 高 。 
3.2 ”特征 抽取 

特征 抽取 部 分 有 3 个 任务 ,获取 事件 相关 的 事件 
主题 词 表 获取 事件 重要 时 间 节 点 和 抽取 事件 要 素 。 
3.2.1 获取 事件 主题 词 表 事件 主题 词 由 事件 微 博 
集中 所 有 的 实 词 组 成 。 提 取 过 程 如 下 :QD 对 所 有 语 料 
进行 分 词 与 词性 标注 提取 词性 为 名 词 动词. 形容词、 
副词 的 词语 的 实 词 列表 。@@ 使 用 ICTCLAS 命名 实体 
识别 方法 识别 相关 人 名 、 地 名 、 机 构 名 要 素 。@ 利 用 
TextRank 方法 提取 每 条 微 博 关 键 词 , 在 提取 关键 词 的 
过 程 中 ,参照 R. Long 等 的 处 理 方法 ,筛选 处 理 后 长 
度 大 于 10 的 微 博 ,对 于 微 博 句 子 , 使 用 公式 (7 ) 确 定 提 
取 关 键 词 的 个 数 。 

EB 
N -ed。 & | 
” 交 

其 中 ,L 表示 句子 长 度 ,B 为 压缩 比例 ,N 为 句子 中 
名 词 实 词 的 个 数 ,a 为 单 句 最 少 关键 词 个 数 。 一 般 句 
子 越 长 ,名 词 实 词 越 多 ,句子 中 包含 关键 词 越 多 ,经 过 
试验 ,8B 取 5,a 取 2 的 时 候 效 果 最 好 。 

将 以 上 3 个 词 表 去 重 综 合 形成 本 文 的 事件 主题 词 
表 , 根 据 词 表 过 滤 掉 语义 功能 性 比较 差 的 词语 ( 如 停 用 
词 .连词 等 ) 
3.2.2 重要 时 间 节 点 表达 式 获取 ”热点 事件 发 生 后 ， 
微 博 上 关于 事件 的 报道 中 很 多 都 会 包含 时 间 短 语 , 这 
些 时 间 短 语 对 于 事件 摘要 抽取 和 表示 都 尤为 重要 ,是 
展示 时 间 来 龙 去 脉 的 重要 信息 。 但 是 表达 比较 杂乱 ， 
需要 统一 处 理 和 一 定 的 逻辑 推算 :中 采用 ICTCLAS 工 
具 识 别 时 间 命 名 实体 表达 ,如 “2004 年 3 月 3 日 “上 昨 
日 “以 前 ” ,将 结果 分 为 两 类 ,可 以 标准 化 和 不 能 标准 
化 的 。@) 将 可 以 标准 化 的 时 间 结 合 自 定 义 的 规则 进行 
标准 化 ,然后 按照 时 间 推 算 。 文 本 时 间 推 算 分 两 步 :第 
步 , 获 取 时 间 推 算 的 两 个 要 素 ( 时 间 基 准 、 时 间 关 系 


公式 (7) 


LDA 模型 提取 的 主题 数 ,使 LDA 提取 的 主题 更 加 准 


短语 ) ,如 果 文中 有 时 间 短语 关系 (如 “三 天 以 后 ”“ 昨 


确 。@) 利 用 MaxEnt - MI 最 终 输出 的 摘要 关键 词 进行 
可 读 性 优化 。 
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天 下 午 " 等 ) ,搜寻 短语 前 面 是 否 有 时 间 基 准 ( 如 “ 今 
天 ” ,完整 和 不 完整 的 时 间 表 达 ) 如 果 文 中 有 时 间 关 系 


全 作 革 日 于 || 
局 1 FA TY 


ChinaXiv 
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但 是 没有 出 现时 间 基 准 , 以 微 博 事件 为 基准 。 第 二 步 ， 
根据 时 间 基 准 和 时 间 关 系 短语 推算 时 间 ,并 将 原文 中 
的 时 间 关 系 短 语 转换 成 标准 时 间 。 包 统计 从 文中 抽取 
的 标准 时 间 ,获取 重要 时 间 节 点 集合 。 
以 “高 雄 地 震 " 事 件 全 部 微 博 (2016 年 2 月 6 日 到 
2016 年 2 月 15 日 ) 作 为 数据 集 ,时 间 短语 统 计 样 例 及 
标准 化 如 表 1 和 表 2 所 示 : 
表 1 时 间 短 语 抽 取样 例 
任务 结果 (部 分 ) 
时 间 短语 【原文 ] 日 本 政府 今天 说 ,向 中 国 台湾 提供 100 万 美元 赈灾 援助 。 
抽取 日 本 始终 没 忘 5 年 前 的 311 大 地 震 时 中 国 台 湾 给 日 本 的 帮助 


【基准 时 间 】: 今 天 一 2016 年 2 月 8 日 
【 推算 时 间 】:5 年 前 一 2011 年 


时 间 短 语 2016 年 2 月 6 日 3 时 57 分 2016 年 2 月 6 日 10 时 40 分 95 
统计 1033 2016 年 2 月 9 日 4 时 93 
= 2016 年 2 月 6 日 1004 2016 年 2 月 8 日 89 
ke: 2016 年 2 月 7 日 166 2016 年 2 月 7 日 12 时 30 分 85 
2016 年 2 月 6 日 6 时 107 2016 年 2 月 5 日 75 


2016 年 2 月 9 日 8 时 47 分 101 


= 表 2 时 间 短语 抽取 部 分 规则 
CR 匹配 规则 (部 分 ) 举例 


获取 时 间 段 上 的 事件 要 素 集合 以 及 整体 语 料 上 的 
事件 要 素 集合 后 ,可 以 计算 该 时 段 上 各 要 素 的 权重 。 
权 值 量化 公式 如 下 : 

了 = 公式 (8) 
其 中 ,W(/,) 表 示 时 间 段 内 ,事件 要 素 下 中 词语 / 
在 要 素 F 所 在 集合 中 的 权重 ,1f(J; + 7) 表示 词语 /在 
时 间 段 了 内 出 现 的 次 数 ,wm(7) 是 了 事件 内 所 有 事件 
要 素 下 中 的 要 素 总 个 数 。 

3.3 ”组 合 模型 获取 事件 摘要 关键 词 

3.3.1 提取 话题 关键 词 ” 利 用 上 一 步 提取 的 事件 主 
题词 表 第 选 微 博 语 料 ,选取 处 理 后 长 度 大 于 10 的 语 料 
作为 训练 LDA 模型 ,并 利用 吉 布 斯 方法 采样 ,过 程 
如 下 :中 对 文档 集中 每 个 文档 的 每 个 词 随机 赋予 一 个 
主题 。@@ 扫 描 文 档 集 对 每 个 词 使 用 吉 布 斯 采样 公式 重 
新 采样 主题 ,并 在 文档 集中 更 新 。@ 重 复 以 上 的 重新 
采样 过 程 直 到 收敛 。@ 获 取 主 题词 汇 概率 箱 阵 。 
3.3.2 关键 词 赋 权重 ”对 于 抽取 出 来 的 主题 关键 词 


完全 全 旧 表 达 yyyy MM -dd-HH-mm-ss 2016.04 20-1056.05 
入 和 5 过 [0-9]? [0-9]131(? = 年 ) ”987 年 ,2010 年 
ap, 
ww 要 


((10)1(11)1(12)1([1- 2 月 
9]))(? = 月 ) 


((? <! \\d))([0-3][0- 
9]1[1-9])(? =( 日 | 号 )) 


(? <! ( 周 ! 星 期 ))([0-2]? 9 点 
[0 -9])(? =( 点 | 时 )) 
\\d+(? = 年 [以 之 ]? 后 ) 一 年 后 等 


1 号 ,12 日 


3:93 事件 要 素 识别 “事件 要 素 是 热点 事件 的 重要 
组 怒 成 分 ,本 文 按照 新 闻 学 领域 对 于 事件 描述 的 
5WlH 抽 取 事件 要 素 59, 即 where (地 点 ) ,when (时 
间 ) who 和 whom( 参 与 者 ) ,what( 具体 动作 ) .how( 结 
果 ) ,对 于 地 点 、 人 名 .机 构 等 命名 实体 可 以 直接 使 用 
ICTCLAS 完成 标注 2 。 时 间 要 素 按照 前 面 提出 的 时 
间 短 语 识别 的 方法 完成 ,what 也 就 是 具体 的 动作 通过 
句法 分 析 和 预定 的 规则 模板 (NPl + V + NP2 .NP +V、 
V+NP、V+ Va 等) 抽取 主 谓 宾 三 元 组 ,how 要 素 通 过 
情感 词典 提取 语句 中 情感 倾向 强 的 词语 。 

根据 以 上 的 方法 ,可 以 获取 单个 微 博 中 事件 要 素 
的 集合 1T,L,NT,P,V,S1,T 代表 时 间 要 素 集合 , 工 代 
表 地 点 等 要 素 的 集合 ,NT 代表 机 构 地 点 等 要 素 集合 ,P 
代表 人 名 职称 等 词语 集合 ,V 代表 动作 词语 集合 ,S 代 
表情 感 倾向 词 集合 。 处 理 文档 为 某 时 间 段 或 者 全 部 文 
档 的 时 候 ,只 需要 把 每 个 微 博 中 的 各 要 素 整合 即 可 。 


一 
| 


山中 


表 , 需 要 对 其 进行 关键 词 权 重 计算 。 权 重 需 要 考虑 关 
键 词 的 两 个 重要 属性 :J 关键 词 对 于 事件 的 描述 能 力 
一 般 和 词性 以 及 词语 充当 事件 要 素 的 什么 角色 相关 。 
如 地震” 就 是 表现 力 比 较 强 的 词语 。 包 该 关键 词 在 
选 定 的 时 间 段 内 出 现 频率 比较 高 ,但 是 在 其 他 时 间 段 
内 频率 并 不 高 , 即 衡量 词语 在 时 间 跨 度 上 的 波动 性 ,这 
里 参考 标准 差 的 方法 衡量 。 综 合 两 个 要 素 , 通 过 以 下 
公式 计算 关键 词 的 权重 村。 


was 人 (站 公式 (9) 
其 中 ,T 指 热点 事件 微 博 的 时 间 跨 度 ,A7T 是 选取 
的 时 间 间 隔 , Fi 是 对 应 各 时 间 段 内 该 词语 的 词 频 ,， 
是 词语 的 总 词 频 ,a 是 该 词语 对 应 的 事件 要 素 。 通 过 
对 数据 预 处 理 , 观 察 各 参数 取 值 情况 下 关键 词 输出 效 
果 , 最 终 确定 地 点 取 0.75, 人 名 取 1, 机 构 取 0.5, 时 间 
取 0.75 ,其 他 词语 取 0.2。 

以 "高雄 地 震 " 事 件 为 例 , 选 取 2016 年 2 月 6 日 数 
据 ,LDA 主题 关键 词 结果 样 例 见 表 3。 
3.4 利用 MaxEnt - MI 模型 合并 关键 词 ,生成 关键 词 
摘要 

根据 获取 的 关键 词 及 其 权重 ,选取 到 >1 的 关键 
词 ,根据 MaxEnt - MI 提取 的 词语 关系 词 对 (以 台湾 高 
雄 地 震 时 间 为 例 , 部 分 结果 见 表 4) ,将 关键 词 分 为 两 
个 集合 ,事件 对 象 集 Subj | Pair, ，，…，,} 
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表 3 ”主题 关键 词 结果 样 例 (部分) 
任务 结果 
提取 主题 关键 词 topic 1 topic 2 topic 3 topic 4 topic 5 

台湾 =0.048 地 震 =0. 141 倒塌 =0. 065 影响 =0.038 台湾 =0.054 
高 雄 =0. 031 台湾 =0.098 地 震 =0.063 歼 点 =0.029 大 陆 =0.026 
地 震 =0.030 深度 =0.028 大 楼 =0.036 厦门 =0. 028 提供 =0.026 
报告 =0.025 震源 =0.025 台湾 =0.034 列车 =0.028 帮助 =0.020 
受灾 =0.023 高 雄 市 =0. 024 台南 市 =0. 034 福州 =0. 024 灾情 =0.019 
目前 =0.018 测定 =0.020 传 出 =0.030 铁路 部 门 =0.017 需要 =0.016 
发 生 =0.017 台 网 =0.019 建筑 物 =0.026 明显 =0.014 海 协会 =0.016 
凌晨 =0.016 震感 =0.013 能 量 =0. 026 震感 =0.013 表示 =0.016 
伤亡 =0.01 附近 =0.009 报道 =0.024 杭 深 线 =0.013 协助 =0.011 
安全 =0.01 高 雄 =0.009 呼救 声 =0.021 旅客 =0.013 救灾 款 =0.010 


事件 行为 集 Action | Pair, , ,…, ,| 集合 构建 的 规则 
如 下 :QDSubj - Pair, 选取 关键 词组 合 为 :n +n.a+n( 其 
中 按照 细 分 词性 标注 选取 nt* nr.nn * ) ,并 且 加 入 
命 各 实体 名 词 。@OAction - Pair; 选取 关键 词组 合 为 :n 
ey +nv+vvr+tsadv+va+v 并 且 加 入 动词 实 
词 光 最 终 输出 Subj + Action 词组 组 合 的 事件 关键 词 摘 
要 
刁 以 “高雄 地 震 事 件 ” 为 例 ,选取 2016 年 2 月 6 日 数 
baxEnt - MI 模型 抽取 的 关系 词 对 结果 以 及 事件 关 
链 词 摘要 样 例如 表 4 所 示 。 
CA 表 4 摘要 关键 词 生成 关键 词 (部 分 ) 


i 
结果 


Subj: 台湾, 台湾 | 高 雄 市 .高雄 ,救援 | 人 员 台南 | 地 区 .台南 市 
1 消防 局 中国 1 地 震 局 
Aetion: 大 楼 1 倒塌 ,人 员 1 伤亡 .等待 /救援 .地震 1 影响 .祈福 | 
台湾 .马英九 | 痛斥 


台湾 <-- > 地震 救援 <-- > 人 员 台湾 <-- > 同胞 同胞 <--> 平 安 


台南 <-- > 地震 高 雄 <-- > 台南 央视 <-- > 新 闻 同胞 <-- > 祈福 
《 台湾 <-- > 高 雄 高 雄 <-- > 地 震 金龙 <-- > 大 楼 台湾 <-- > 朋友 
3 倒 唱 <-- > 大 楼 台南 <--> 大 楼 旅游 <-- > 团队 大 楼 < 一 > 救出 
于 台湾 <--> 南 部 大 楼 <-- > 倒塌 人 员 <-- > 伤亡 台湾 <-- > 旅游 


3.5 ”根据 摘要 关键 词 租 选 微 博 作为 事件 轴 摘 要 

在 获取 微 博 事件 摘要 的 关键 词 后 ,针对 每 个 时 间 
段 的 微 博 ,需要 输出 可 以 代表 该 时 间 内 时 间 发 展 情况 
的 句子 集 , 这 些 句子 需要 反应 该 时 间 市 点 网 络 上 针对 
该 时 间 报 道 的 主要 内 容 。 

本 文 抽取 重要 微 博 句子 作为 该 时 间 节 点 上 的 摘 
要 ,与 新 闻 摘要 比 ,除了 载体 不 一 样 外 ,诉求 是 一 样 的 。 
因此 ,这 里 可 以 参考 新 闻 价值 的 定义 来 制定 句子 的 第 
选 标准 ”。 新 闻 的 价值 是 指 新 闻 所 含 满足 公众 需求 
因素 的 总 和 ,或 称 为 社会 价值 的 总 和 。 传 播 学 中 新 
司 价 值 五 要 素 包 括 时 效 性 、 重 要 性 \ 显 著 性 、 接 近 性 、 趣 
味 性 。 按 照 新 闻 的 时 效 性 的 事实 原则 ,应 该 包含 事件 
要 素 的 情况 (时 间 、 人 物 、 地 点 、 动 作 ) 良 好 的 新 闻 摘 要 
句 文本 包含 事件 要 素 比 较 多 ;按照 显著 性 , 即 考虑 报道 
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人 的 知名 度 ,是 否 是 关键 传播 节点 (大 V ,高 转发 微 博 
等 ) 也 十 分 重要 ;按照 接近 性 , 微 博 包含 事件 关键 词 的 
情况 ,体现 了 微 博 和 事件 相关 程度 。 因 此 在 实现 的 时 
候 需要 综合 考虑 上 述 要 素 。 本 文 结合 新 闻 传 播 学 新 闻 
价值 的 定义 ,提出 以 下 公式 筛选 摘要 微 博 : 


bai -( 之 +2E, +2E;, | Ee) Wy 


10 大 


公式 (10) 

第 一 个 大 括号 中 是 计算 该 微 博 包 含 事件 要 素 的 情 
况 。E; 是 指 是 否 包含 标准 化 的 时 间 短 语 ,如 果 包 含 取 
1 ,不 包含 取 0;E, 指 是 否 包 含 人 名 ,E, 指 是 否 包 含 地 
名 ,E, 是 否 包含 动词 实 词 。 如 果 一 个 微 博 所 有 要 素 都 
包含 ,那么 从 新 闻 表达 的 角度 看 , 它 是 新 闻 摘要 的 可 能 
性 很 大 。 

第 二 个 大 括号 内 是 通过 对 比 该 微 博 的 关键 词 与 本 
文 组 合 模型 提取 的 事件 摘要 关键 词 对 比 ,K; 表示 该 微 
博 命中 关键 词 个 数 ,及 表示 该 主题 内 关键 词 个 数 。 如 
果 一 个 微 博 和 主题 的 关键 词 重合 越 多 ,那么 该 新 闻 和 
该 主题 的 相关 性 越 大 。 

最 后 一 个 ,表示 该 微 博 的 社交 价值 ,本 文 从 微 博 
新 闻 价 值 的 角度 考虑 ,认为 H, 的 大 小 和 博 主 微 博 的 类 
型 微 博 热 度 ( 评 价 、 转 发 .点 赞 ) 、 博 主 影响 力 相关 。 
例如 ,名 人 在 热点 事件 中 发 的 微 博 可 能 在 内 容 上 不 符 
合 微 博 新 闻 价 值 的 标准 ,但 是 名 人 的 参与 本 身 就 是 该 
热点 事件 的 一 部 分 ,很 多 网 民 和 希望 在 了 解 事 件 的 发 展 
状况 中 看 到 该 微 博 ;还 有 ,政府 、 官 方 媒体 由 于 其 本 身 
的 权威 性 ,他 们 关于 热点 事件 的 报道 可 能 比 微 博 达 人 
和 普通 用 户 的 微 博 更 能 引起 用 户 的 兴趣 。 本 文 从 微 博 
事件 摘要 的 角度 提出 了 简化 的 微 博 社交 价值 衡量 方 
法 :根据 抓 取 用 户 账号 的 标签 (企业 、 媒 体 、 政 府 、 名 
人 网站、 团体 校园. 达 人 、 普 通用 户 、 甚 他) 判断 用 户 
属于 哪 一 类 。 如 果 用 户 属于 高 影响 力 类 型 (名 人 、 政 
府 、 媒 体 、 企 业 、 网 站 ) ,直接 输出 而 =1。@@ 如 果 用 户 


一 八 


”by NV i Nd 
LnInaxIV 已 
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属于 中 等 影响 力 中 等 用 户 ( 团 体 、 校 园 , 达 人 ) 且 转发 
数 低 于 事件 所 有 微 博 的 一 半 ,Hi =0.6; 高 于 所 有 微 博 
的 一 半 ,Hi =1。(@ 如 果 用 户 属于 普通 用 户 和 其 他 , 转 
发 数 低 于 事件 所 有 微 博 的 一 半 ,Hi =0.4; 高 于 所 有 微 
博 的 一 半 ,Hi =1。 
以 高 雄 地 震 事 件 为 例 , 选 取 2016 年 2 月 6 日 数 
据 , 提 取 部 分 微 博 摘要 如 表 5 所 示 : 
表 5 提取 摘要 效果 ( 部分) 

任务 结果 

摘要 Subj: 台湾, 台湾 | 高 雄 市 、 高 雄 、 救 援 | 人员、 台南 | 地 区 ,台南 市 | 
关键 词 ”消防 局 ,中国 | 地 震 局 
Action:; 大 楼 | 倒塌 、 人 员 1 伤 亡 、 等 待 | 救援 ,地震 | 影响 、 祈 福 | 台 
湾 .马英九 1 痛斥 
抽取 微 ”事件 时 间 :2016 -2 -6 03 -57 
博 摘要 【台湾 高 雄 市 发 生 6.7 级 地 震 震源 深度 15 千 米 】 中 国 地 震 台 网 
Se ”正式 测定 :02 月 06 日 03 时 57 分 在 台湾 高 雄 市 (北纬 22.94 度 ， 
3 东经 120.54 度 ) 发 生 6.7 级 地 震 , 震 源深 度 15 千 米 。 
时 间 :2016 -2 -6 03 -57 
# 地 震 快讯 # 中 国 地震 台 网 正式 测定 :02 月 06 日 03 时 57 分 在 台 
湾 高 雄 市 (北纬 22.94 度 , 东 经 120.54 度 ) 发 生 6.7 级 地 震 , 震 源 
深度 15 千 米 。( 中 国 地 震 台 网 速 报 ) 
事件 时 间 :2016 -2 -6 10 -40 
# 高 雄 6.7 级 地 震 #【 救出 225 人 5 人 死亡 ] 截 至 今天 上 午 10 时 
40 分 ,台湾 南部 地 震 已 造成 5 人 死亡 。 救 援 人 员 已 经 救出 民众 
225 人 ,收容 74 人 , 送 医 58 人 。 国 台 办 表示 ,如 需 协助 ,大 陆 方 
而 愿 提供 援助 。 愿 平安! 


实验 结果 分 析 


= 通过 选取 《2016 年 度 社会 热点 事件 网 络 与 情报 
售 于 具有 代表 性 的 事件 “台湾 高 雄 6.7 级 地 震 ” 和 
f 顺 酒店 女生 遇 袭 ”, 根 据 事件 标题 及 扩展 的 查询 词 
作 贸 搜寻 关键 词 ,利用 爬虫 软件 抓 取 微 博 , 约 2 万 条 微 
博 舌 为 语 料 进行 实验 , 微 博 采 集 样本 及 情况 如 表 6 所 
不 : 


由 于 摘要 抽取 的 任务 不 同 于 一 般 的 NLP 任务 , 文 
摘 评 估 的 难点 在 于 标准 答案 不 唯一 ,对 于 一 篇 文章 来 
说 ,表达 同样 内 容 的 两 句 话 都 可 能 成 为 摘要 的 一 部 分 ， 
而 且 仅 凭借 表达 方式 的 不 同 无 法 区 分 哪 一 句 更 适合 。 
虽然 有 一 些 学 者 根据 文本 的 特点 提出 了 一 些 自动 评价 
的 手段 但 是 由 于 其 实现 起 来 复杂 ,不 在 本 文 研 究 范围 
内 。 大 多 数 评测 都 是 通过 人 工 内 部 评测 的 方式 ,人 工 
生成 标准 摘要 。 本 文 也 使 用 内 部 评测 的 方法 来 评测 效 
果 。 由 于 人 工 评测 对 评测 者 的 要 求 比较 高 ,如 果 评 测 
者 文学 素养 不 够 ,很 可 能 会 影响 评测 的 结果 ,而 且 由 于 
本 文 样本 量 比较 大 ,人 工 评测 需要 一 定 的 策略 : 

首先 ,本 文选 取 的 是 从 微 博 集合 中 抽取 代表 该 时 
间 段 热点 事件 发 展 状况 的 微 博 句 作为 摘要 ,因此 ,人 工 
评测 仅 需 要 测评 人 员 从 热点 事件 相关 微 博 中 选择 自己 
认为 可 以 作为 摘要 的 微 博 即 可 ,由 于 人 工 筛选 的 工作 
量 大 ,所 以 本 文 仅 以 两 个 事件 ”高雄 6.7 级 地 震 ” 和 
颐 女 生 遇 袭 " 作为 评测 数据 。 
其 次 ,为 了 减少 个 人 文学 素养 对 评测 的 影响 ,利用 
百度 百科 关于 热点 事件 的 词 条 作为 参考 ,这 些 词 条 是 
众多 网 友 一 起 编写 ,准确 率 比较 高 。 

人 工 评测 完 后 ,会 获取 到 人 工 抽取 的 摘要 集合 作 
为 测试 集 。 本 文通 过 常用 的 -measure 作为 评测 标准 ， 


N 
及 = 一 
N, 
N 
= 
了 
2*RxP 
八 
上 - measure RiP 公式 (11) 


其 中 ,N 是 本 文 方法 抽取 摘要 中 符合 人 工 抽 取 摘 


表 6 微 博 采集 样本 
4j 从 湖 | 于 的 接 蚜 凶 浪 站 
ET 要 的 个 数 ,N, 是 人 工 标注 的 摘要 总 数 ,N 本 文 方法 拉 
台湾 高 雄 6. 7 ”台湾 高 雄 6.7 级 地 震 , 高 ”2016 年 2 月 6 到 7737 条 ”” 取 摘要 的 总 数 。 
ob 民生 6.7 久 站 和 ,高 外 柑 。2016 征 2 月 15 为 了 进行 对 比 ,本 文 将 新 闻 摘 要 中 TextRank 算法 
和 珀 酒店 女生 和 左 酒 店 女生 遇 袭 ,和 苔 ”2016 年 4 月 5 到 11 166 条 = 好 ` 五 站 nr Er 和 十 
这 自动 摘要 应 用 在 微 博 语 料 中 , 某 一 时 间 段 内 的 微 博 作 
酒店 过 歼 日 为 新 闻 文 本 ,抽取 微 博 摘 要 。 如 表 7 所 示 : 
表 7 两 种 摘要 方法 对 比 
事件 召回 率 准确 率 F-Measure 
本 文 方法 TextRank 本 文 方法 TextRank 本 文 方法 TextRank 
台湾 高 雄 6.7 级 地 震 0. 60 0. 42 0. 45 0.34 0.54 0.37 
和 项 酒店 女生 遇 约 0.62 O037 0.47 0.32 0.33 0.34 
从 实验 结果 看 ,本 文 方法 Ff 值 相对 TextRank 方法 来 看 ,关键 词 加 上 微 博 语 句 的 摘要 ,在 时 间 轴 上 很 好 地 
提高 了 8% -13% ,证 明 本 文 的 方法 提高 了 面向 微 博 。 展现 了 事件 的 来 龙 去 脉 , 在 帮助 用 户 了 解 热 点 事件 以 


热点 事件 时 间 轴 摘要 的 质量 。 而 且 从 测试 人 员 的 反馈 


及 事件 监测 等 方面 具有 重要 意义 。 
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研究 不 足 之 处 是 ,本 文 的 抽取 微 博 摘要 的 召回 率 
很 高 ,但 是 准确 率 提高 不 多 ,有 一 些 热度 并 不 高 但 是 摘 
要 价值 很 大 的 微 博 没有 能 够 抽取 出 来 ,这 一 类 微 博 往 
往 不 是 热点 微 博 ,但 是 反映 了 事件 的 重要 进展 ,如 “ 民 
间 救 援 组 织 公 羊 队 一 些 来 自 浙江 的 成 员 抵 达 台 南 维 冠 
大 厦 , 并 获准 进入 倒塌 大 楼 区 域 参与 救援 "等 。 另 外 ， 
本 文 方法 在 关键 词 选取 等 关键 流程 都 有 很 多 优化 空 
间 , 需 要 进一步 研究 。 

综 上 所 述 ,笔者 在 基于 传统 的 自动 摘要 和 新 闻 摘 
要 的 研究 基础 上 ,结合 新 闻 传播 的 特点 ,利用 时 间 轴 
作为 线索 组 织 ,以 关键 词 加 关键 微 博 的 摘要 形式 实 
现 了 对 热点 事件 的 时 间 轴 摘要 提取 ,实验 结果 表明 
本 文 方法 相对 TextRank 方法 召回 率 有 显著 提高 ,在 
突现 过 程 中 提出 通过 组 合 LDA 模型 和 互信 息 最 大 炳 
模型 来 提高 摘要 关键 词 准 确 性 和 可 读 性 等 创新 性 研 
0 满足 用 户 信息 需求 的 时 间 事 件 
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Hot Event Summary on Micro blog Generated by Multi Model Based on Event Flements 
LiGang Xu We: Wang Xinping 
School of Information, Wuhan University ，Wuhan 430072 

Abstract: | Purpose/significance |In order to help the readers understand the contexts of the news event on micro -blog 
platform and improve readability and accuracy of micro-blog event summary, we propose a method for extracting the event sum- 
mary organized by time axis based on event elements. [Method/ process | Based on the characteristics of micro blog text, we 
combine both advantages and disadvantages of the LDA and mutual information maximum entropy model (MaxEnt MI) and ex- 
tract event summary keywords, screening micro blog with micro -blog communication value and theme relevance and generating e- 
vent summary in the form of time keywords mircro blog. | Result/ conclusion | Comparing with the traditional TextRank method in 
the.artificially labeled test set, we find the F value increased by 8% to 13% , and the internal tests show that the readability of 
thesabstracts is significantly improved. The number of experimental texts and test sets and the richness of the event need to be 
fli expanded, and more weighting strategies should be considered in order to improve the accuracy of the abstracts. The ex- 
PDental results and the test results show that the proposed method is feasible and effective, which can meet the needs of the 
USES for the hot event summary information, and improve the accuracy of the micro blog abstract extraction. 


Keywords: text mining event summarization latent dirichlet allocation mutual information maximum entropy model 
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